번역 메모리

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 번역 메모리의 기본 기능
- 2.1. 오프라인 기능
- 2.2. 온라인 기능
3. 번역 메모리의 유형
4. 텍스트 메모리
- 4.1. 번역 메모리
5. 번역 메모리의 장점과 단점
- 5.1. 주요 장점
- 5.2. 주요 단점
6. 번역 메모리의 품질에 미치는 영향
7. 번역 메모리의 역사
8. 최근 동향
9. 관련 표준
10. 대표적인 번역 메모리 도구
참조

1. 개요

번역 메모리는 번역 작업의 효율성과 품질 향상을 위해 원문과 번역문을 데이터베이스로 구축하고 활용하는 소프트웨어 및 도구를 의미한다. 번역 메모리는 과거 번역 데이터를 활용하여 반복적인 번역 작업 및 표현 통일을 지원하며, 가져오기, 분석, 내보내기 등의 오프라인 기능과 검색, 업데이트, 자동 번역, 네트워킹 등의 온라인 기능을 제공한다. 데스크톱 기반과 서버 기반으로 나뉘며, TMX, TBX, UTX, SRX 등 다양한 관련 표준이 존재한다. 번역 메모리 사용은 번역 품질에 영향을 미칠 수 있으며, 오류 전파, 문장 샐러드 효과, 엿보기 효과 등의 단점도 존재하지만, 장기적인 번역 프로젝트의 비용 절감 효과를 가져올 수 있다. 대표적인 번역 메모리 도구로는 펠릭스, 워드패스트, OmegaT, TRADOS 등이 있다.

더 읽어볼만한 페이지

번역 데이터베이스 - Translatewiki.net
Translatewiki.net은 니콜라스 하운에 의해 설립되어 위키미디어 재단의 프로젝트를 포함한 다양한 오픈 소스 프로젝트의 번역을 지원하는 오픈 소스 번역 플랫폼으로, 18,000명 이상의 번역자가 참여하여 150개 이상의 언어로 번역 작업을 수행하며, 자원 봉사자 기반으로 운영되어 번역 인터페이스와 품질 관리 도구 등을 제공한다.
번역 데이터베이스 - 구글 번역사 도구함
구글 번역사 도구함은 다양한 입력 방식을 통해 번역을 지원하고, 번역 메모리, 용어집, 기계 번역 제안 등을 활용하여 품질을 향상시키며, 협업 기능을 제공하고, API를 통해 개발자 지원을 하지만, 산업 번역에서는 데이터 보안에 유의해야 하는 구글의 서비스이다.
전산언어학 - 알고리즘
알고리즘은 문제 해결을 위한 명확하고 순서화된 유한 개의 규칙 집합으로, 알콰리즈미의 이름에서 유래되었으며, 수학 문제 해결 절차로 사용되다가 컴퓨터 과학에서 중요한 역할을 하며 다양한 방식으로 표현되고 효율성 분석을 통해 평가된다.
전산언어학 - 단어 의미 중의성 해소
단어 의미 중의성 해소(WSD)는 문맥 내 단어의 의미를 파악하는 계산 언어학 과제로, 다양한 접근 방식과 외부 지식 소스를 활용하여 연구되고 있으며, 다국어 및 교차 언어 WSD 등으로 발전하며 국제 경연 대회를 통해 평가된다.

번역 메모리

2. 번역 메모리의 기본 기능

번역 메모리는 번역할 텍스트인 원문을 세그먼트로 나누고, 이전에 번역된 원문-번역문 쌍을 저장한 데이터베이스에서 일치하는 항목을 검색하여 번역자에게 제공한다. 번역자는 이 제안을 수락, 대체 또는 수정할 수 있으며, 수정된 내용은 데이터베이스에 저장된다.

일부 번역 메모리 시스템은 데이터베이스 항목과 정확히 일치하는 텍스트 세그먼트(100% 일치)만 검색하지만, 다른 시스템은 퍼지 매칭 알고리즘을 사용하여 유사한 세그먼트도 검색한다. 일반적으로 원본 세그먼트의 텍스트만 검색한다. 일치 알고리즘의 유연성과 견고성은 번역 메모리의 성능을 크게 좌우하지만, 일부 응용 프로그램에서는 정확히 일치하는 항목의 재현율이 100% 일치 방식의 정당성을 뒷받침할 만큼 충분히 높을 수 있다.

일치하는 항목이 없는 세그먼트는 번역자가 수동으로 번역해야 하며, 이 번역문은 데이터베이스에 저장되어 나중에 활용할 수 있다.

번역 메모리는 기술 매뉴얼과 같이 반복성이 높은 텍스트에서 가장 효과적이다. 또한 이전에 번역된 문서의 점진적인 변경 사항(예: 사용자 매뉴얼의 새 버전에서 사소한 변경)을 번역하는 데에도 도움이 된다. 전통적으로 번역 메모리는 문학 또는 창의적인 텍스트에는 적합하지 않은 것으로 여겨졌지만, 다른 사람들은 비반복적인 텍스트에도 번역 메모리가 가치가 있다고 생각한다. 이는 데이터베이스 리소스가 용어의 적절한 사용법을 결정하기 위한 일치 검색에 유용하고, 품질 보증(빈 세그먼트 없음), 검토 프로세스의 단순화(원본 및 대상 세그먼트가 항상 함께 표시됨)에 도움이 되기 때문이다.

번역 메모리는 번역자가 작성한 번역문을 원문과 함께 데이터베이스에 저장하고, 이후 유사한 원문이 나타났을 때 저장된 번역문을 자동으로 제안하는 기능을 제공하여, 반복적인 번역 작업을 줄이고 번역의 일관성을 유지하며 전체적인 번역 품질을 향상시킨다.

2. 1. 오프라인 기능

번역 메모리 도구는 오프라인 환경에서 번역 작업의 효율성을 높이기 위해 다양한 기능을 제공한다. 번역 메모리는 원문과 번역문의 데이터베이스를 의미하며, 이를 활용하는 소프트웨어를 번역 메모리 도구라고 한다. 번역 메모리 도구는 번역 소프트웨어와 달리 자동 번역 기능은 없지만, 최근에는 두 기술이 통합되어 사용되기도 한다.

번역 메모리 도구의 주요 기능은 다음과 같다.

번역자가 작성한 번역을 원문과 함께 데이터베이스에 등록
이전에 등록된 번역을 동일하거나 유사한 원문이 나타났을 때 자동 인용

이러한 기능을 통해 반복적인 번역 작업 및 수동 복사/붙여넣기 작업을 자동화하고, 번역 표현의 통일을 통해 문서 전체의 번역 품질 향상을 기대할 수 있다.

2. 1. 1. 가져오기 (Import)

가져오기는 텍스트 파일의 텍스트와 해당 번역을 TM(번역 메모리)으로 전송하는 데 사용되는 기능이다.^[1] 가져오기는 외부 소스 텍스트와 해당 번역을 함께 TM으로 가져올 수 있는 '원시 형식'으로 수행할 수 있다.^[1] 때로는 사용자가 텍스트를 재처리해야 할 수도 있다.^[1] 가져오기에 사용할 수 있는 다른 형식으로 '네이티브 형식'이 있는데, 이 형식은 TM이 번역 메모리를 파일에 저장하는 데 사용하는 형식이다.^[1]

2. 1. 2. 분석 (Analysis)

텍스트를 번역에 적합한 형태로 준비하는 과정은 다음과 같다.

; 텍스트 구문 분석

: 문장 끝의 마침표와 약어의 마침표를 구별하기 위해 문장 부호를 정확하게 인식하는 것이 중요하다. 마크업은 일종의 사전 편집이다. 일반적으로 번역 지원 프로그램을 통해 처리된 자료에는 마크업이 포함되어 있는데, 이는 번역 단계가 다국어 문서 제작 라인에 포함되어 있기 때문이다. 다른 특수 텍스트 요소도 마크업으로 구분할 수 있다. 고유 명사나 코드처럼 번역할 필요가 없는 특수 요소가 있는 반면, 기본 형식으로 변환해야 하는 요소도 있다.

; 언어학적 구문 분석

: 어형 변환은 단어 목록과 용어 은행에서 용어를 자동으로 검색하기 위한 텍스트를 준비하는 데 사용된다. 반면에 구문 분석은 원문에서 다중 단어 용어 또는 어구를 추출하는 데 사용될 수 있다. 따라서 구문 분석은 어구의 단어 순서 변형을 정규화하는 데 사용되며, 어떤 단어가 구를 형성할 수 있는지 파악한다.

; 분할

: 가장 유용한 번역 단위를 선택하는 것이 목적이다. 분할은 일종의 구문 분석과 같다. 얕은 구문 분석을 사용하여 단일 언어로 수행되며, 정렬은 분할을 기반으로 한다. 번역자가 분할을 수동으로 수정하면, 프로그램이 자체 오류를 반복하므로 문서의 이후 버전은 수정된 분할을 기반으로 TM에 대한 일치를 찾을 수 없다. 번역자는 일반적으로 문장별로 진행하지만, 한 문장의 번역이 주변 문장의 번역에 따라 달라질 수 있다.

; 정렬

: 원문과 대상 텍스트 간의 번역 대응 관계를 정의하는 작업이다. 정렬에서 분할로 피드백이 있어야 하며, 좋은 정렬 알고리즘은 초기 분할을 수정할 수 있어야 한다.

; 용어 추출

: 이전 사전을 입력으로 사용할 수 있다. 또한, 알려지지 않은 용어를 추출할 때 텍스트 통계를 기반으로 구문 분석을 사용할 수 있다. 이는 번역 작업에 포함된 작업량을 추정하는 데 사용되며, 작업 계획 및 일정 관리에 매우 유용하다. 번역 통계는 일반적으로 단어 수를 세고 텍스트의 반복 횟수를 추정한다.

2. 1. 3. 내보내기 (Export)

번역 메모리(TM)의 텍스트를 외부 텍스트 파일로 전송하며, 가져오기와 내보내기는 서로 반대이다.^[1]

2. 2. 온라인 기능

번역 메모리(TM)는 번역 작업의 효율성과 품질을 높이는 데 도움을 주는 다양한 온라인 기능을 제공한다. 주요 기능은 다음과 같다.

번역문 등록: 번역자가 작성한 번역문을 해당 원문과 함께 데이터베이스에 등록한다.
자동 인용: 과거에 등록된 번역문과 동일하거나 유사한 원문이 나타나면 자동으로 번역문을 인용하여 번역자에게 제시한다.

이러한 기능을 통해 번역자는 동일한 문장을 반복해서 번역하거나 문서를 수동으로 복사하여 붙여넣는 작업을 줄이고, 동일하거나 유사한 문장의 번역에서 표현의 통일을 자동화하여 문서 전체의 번역 품질을 향상시킬 수 있다.

최근에는 번역 메모리 도구와 번역 소프트웨어를 통합하여 더욱 효율적인 번역 지원 환경이 실용화되고 있다.

2. 2. 1. 검색 (Retrieval)

번역 메모리(TM)는 원문을 세그먼트로 나누고, 이전에 번역된 원본-대상 쌍을 저장한 번역 메모리에서 일치하는 항목을 검색하여 번역가에게 제안한다. 번역자는 이 제안을 수락, 대체 또는 수정할 수 있으며, 수정된 내용은 데이터베이스에 저장된다.

번역 메모리 시스템은 100% 일치 항목(정확 일치)뿐만 아니라 퍼지 매칭 알고리즘을 사용하여 유사한 세그먼트도 검색한다. 일치하는 항목이 없는 세그먼트는 번역자가 수동으로 번역해야 하며, 이 번역문은 데이터베이스에 저장되어 나중에 활용할 수 있다.

번역 메모리에서는 다음과 같은 여러 유형의 일치 항목을 검색할 수 있다.^[1]

정확 일치: 현재 소스 세그먼트와 저장된 세그먼트가 문자 단위로 일치하는 경우이다. 이전에 동일한 문장이 번역되었음을 의미하며, "100% 일치"라고도 한다.^[1]
문맥 내 정확(ICE) 일치 (보장된 일치): 정확히 동일한 문맥(단락의 동일한 위치)에서 발생하는 정확 일치이다. 문맥은 주변 문장, 문서 파일 이름, 날짜, 권한 등으로 정의된다.^[1]
퍼지 일치: 정확하지 않은 일치이다. 일부 시스템에서는 백분율을 할당하는데, 이 수치는 시스템 간에 비교할 수 없다.^[1]
컨코던스: 번역가가 소스 세그먼트에서 하나 이상의 단어를 선택하면, 시스템은 검색 기준과 일치하는 세그먼트 쌍을 검색한다. 용어 데이터베이스가 없는 경우 용어 및 숙어 번역을 찾는 데 유용하다.^[1]

2. 2. 2. 업데이트 (Updating)

번역 메모리(TM)는 번역가가 번역을 승인하면 새로운 번역으로 업데이트된다.^[1] 데이터베이스를 업데이트할 때, 이전 내용을 어떻게 처리할 것인가에 대한 문제가 항상 발생한다.^[1] TM은 항목을 변경하거나 삭제하여 수정할 수 있다.^[1] 일부 시스템에서는 번역가가 동일한 원본 세그먼트에 대해 여러 번역을 저장할 수도 있다.^[1]

2. 2. 3. 자동 번역 (Automatic Translation)

번역 메모리 도구는 자동 검색 및 대체 기능을 제공하여 번역 작업의 속도를 높인다.

'''자동 검색''': 번역가가 문서를 번역하면서 작업을 진행할 때, 번역 메모리(TM) 시스템이 자동적으로 번역 메모리를 검색하여 결과를 보여준다.
'''자동 대체''': 자동 대체 기능은 문서의 새로운 버전을 번역할 때 정확히 일치하는 항목이 있으면 소프트웨어가 이전 번역을 그대로 사용하도록 해준다. 그러나 번역가가 원문에 대한 번역을 확인하지 않으면 이전 번역의 실수가 반복될 수 있다는 단점이 있다.

2. 2. 4. 네트워킹 (Networking)

여러 번역가가 번역 메모리(TM)를 공유하여 협업할 수 있도록 지원한다. 네트워킹은 번역가 그룹이 각자 개별적으로 작업하는 것보다 더 빠르게 텍스트를 함께 번역할 수 있게 해준다. 이는 한 번역가가 번역한 문장과 구절을 다른 번역가들이 사용할 수 있기 때문이다. 또한 최종 번역 전에 번역 메모리를 공유하면, 한 번역가의 실수를 다른 팀원이 수정할 기회가 생긴다.

3. 번역 메모리의 유형

번역 메모리 시스템은 크게 데스크톱 기반과 서버 기반(중앙 집중식)으로 나눌 수 있다.

데스크톱: 데스크톱 번역 메모리 도구는 일반적으로 개별 번역가가 번역을 완료하는 데 사용하는 도구이다. 프리랜서 번역가가 데스크톱 컴퓨터에 다운로드하여 설치하는 프로그램이다.
서버 기반 또는 중앙 집중식: 중앙 집중식 번역 메모리 시스템은 중앙 서버에 TM을 저장한다. 데스크톱 TM과 함께 작동하며, 데스크톱 TM만으로는 얻을 수 있는 TM 활용도보다 30~60% 더 TM 일치율을 높일 수 있다.

4. 텍스트 메모리

텍스트 메모리는 LISA OSCAR xml:tm 표준의 기반이다. 텍스트 메모리는 저작 메모리와 번역 메모리로 구성된다.^[1]

4. 1. 번역 메모리

이 프로그램은 '''원문'''(번역할 텍스트)을 세그먼트로 나누고, '''번역 메모리'''에 저장된 이전에 번역된 원본-대상 쌍의 원본 부분과 세그먼트 간의 일치하는 항목을 검색하여, 일치하는 쌍을 전체 및 부분 '''일치'''로 제공한다. 번역자는 일치하는 항목을 수락하거나, 새 번역으로 대체하거나, 원본에 맞게 수정할 수 있다. 마지막 두 경우, 새 번역 또는 수정된 번역은 데이터베이스에 저장된다.

일부 번역 메모리 시스템은 100% 일치 항목만 검색한다. 즉, 데이터베이스의 항목과 정확히 일치하는 텍스트 세그먼트만 검색할 수 있지만, 다른 시스템은 퍼지 매칭 알고리즘을 사용하여 유사한 세그먼트를 검색하고, 차이점을 표시하여 번역자에게 제공한다. 일반적인 번역 메모리 시스템은 원본 세그먼트의 텍스트만 검색한다.

일치 알고리즘의 유연성과 견고성은 번역 메모리의 성능을 크게 결정하지만, 일부 응용 프로그램에서는 정확히 일치하는 항목의 재현율이 100% 일치 방식의 정당성을 뒷받침할 만큼 충분히 높을 수 있다.

일치하는 항목이 없는 세그먼트는 번역자가 수동으로 번역해야 한다. 이러한 새로 번역된 세그먼트는 데이터베이스에 저장되어 향후 번역뿐만 아니라 현재 텍스트에서 해당 세그먼트의 반복에도 사용될 수 있다.

번역 메모리는 기술 매뉴얼과 같이 반복성이 높은 텍스트에서 가장 효과적으로 작동한다. 또한 이전에 번역된 문서의 점진적인 변경 사항, 예를 들어 사용자 매뉴얼의 새 버전에서 사소한 변경 사항을 번역하는 데에도 도움이 된다. 전통적으로 번역 메모리는 사용된 언어에 반복이 거의 없다는 간단한 이유로 문학 또는 창의적인 텍스트에는 적합하지 않은 것으로 여겨졌다. 그러나 다른 사람들은 비반복적인 텍스트에도 번역 메모리가 가치가 있다고 생각한다. 이는 데이터베이스 리소스가 용어의 적절한 사용법을 결정하기 위한 일치 검색에 유용하고, 품질 보증(빈 세그먼트 없음), 검토 프로세스의 단순화(원본 및 대상 세그먼트가 항상 함께 표시됨, 번역자는 기존 검토 환경에서 두 개의 문서를 사용해야 함)에 도움이 되기 때문이다.

고유 식별자는 번역 중에 기억되어 대상 언어 문서가 텍스트 단위 수준에서 '정확하게' 정렬된다. 소스 문서가 나중에 수정되면 변경되지 않은 텍스트 단위는 번역가의 개입 없이 새 대상 버전의 문서로 직접 전송될 수 있다. 이것이 번역 메모리에 대한 '정확한' 또는 '완벽한' 일치의 개념이다. xml:tm은 또한 문서 내에서 활용 및 퍼지 매칭을 위한 메커니즘을 제공할 수 있다.^[1]

번역 메모리는 번역 작업을 하는 사람의 업무 효율성과 품질 향상을 지원하기 위한 소프트웨어이다. "번역 메모리"는 엄밀히 말하면 원문과 번역문의 데이터베이스를 지칭하며, 이를 이용하는 소프트웨어는 "번역 메모리 도구"라고 불린다. "번역 메모리 도구"를 "번역 메모리"라고 부르는 경우도 많다.^[2]

기존의 번역 메모리에는 일반적으로 번역 소프트웨어와 같은 구문 분석 기능은 없다. 따라서 번역 메모리 도구를 사용한다고 해서 원문이 자동으로 번역되는 것은 아니다. 번역 자체는 어디까지나 번역자가 수행한다. 다만, 최근에는 번역 메모리 도구와 번역 소프트웨어를 통합하여 더욱 효율적인 번역 지원 환경이 실용화되고 있다.^[2]

번역 메모리의 주요 기능은 다음과 같다.^[2]

번역자가 작성한 번역을 해당 원문과 함께 전용 데이터베이스에 등록하는 기능
과거에 데이터베이스에 등록된 번역을 동일하거나 유사한 원문이 나타났을 때 자동으로 인용하는 기능

이러한 기능을 통해 동일한 문장을 반복해서 번역하는 작업, 문서를 수동으로 복사하여 붙여넣는 작업 등 지금까지 번역자에게 맡겨져 있던 단순 작업이 자동화된다. 더 나아가 동일한 문장이나 유사한 문장의 번역에서 표현을 통일하는 것도 자동화되므로 문서 전체의 번역 품질 향상도 기대할 수 있다.^[2]

5. 번역 메모리의 장점과 단점

번역 메모리는 번역 소프트웨어에 대한 환멸에서 생겨났다고 여겨진다. 그러나 현재는 이전보다 번역 소프트웨어와 그것이 작동하는 하드웨어의 성능이 향상되었고, 번역 소프트웨어의 장점이 재평가되고 있다. 번역 메모리에서는 원래 컴퓨터로 할 수 있는 단순 작업까지 사람이 해야 하는 번거로움이 있기 때문이다.^[1]

번역 소프트웨어에 번역 메모리 기능이 포함되어 있거나, 반대로 번역 소프트웨어 기능을 가진 번역 메모리도 있지만, 어느 쪽 기능도 각각 단독 제품에는 미치지 못한다.^[1]

5. 1. 주요 장점

번역 메모리 관리자는 기술 문서 및 전문 용어를 포함하는 문서를 번역하는 데 가장 적합하며 다음과 같은 장점을 제공한다.

문서가 완전하게 번역되도록 보장한다. (번역 메모리는 빈 대상 세그먼트를 허용하지 않는다.)
번역된 문서의 일관성을 보장한다. (공통 정의, 문구 및 용어 포함) 이는 여러 번역가가 단일 프로젝트에서 작업할 때 중요하다.
번역가가 이러한 형식을 처리하는 데 일반적으로 필요한 소프트웨어를 소유하지 않고도 다양한 형식의 문서를 번역할 수 있도록 지원한다.
전체 번역 프로세스를 가속화한다. 번역 메모리는 이전에 번역된 자료를 "기억"하므로 번역가는 한 번만 번역하면 된다.
장기 번역 프로젝트의 비용을 절감한다. 예를 들어 매뉴얼, 경고 메시지 또는 일련의 문서 텍스트는 한 번만 번역하면 여러 번 사용할 수 있다.
대규모 문서 프로젝트의 경우 TM 패키지를 사용하면 새로운 프로젝트를 처음 번역할 때부터 (시간 또는 비용) 절감 효과가 나타날 수 있지만, 일반적으로 이러한 절감 효과는 번역 메모리를 사용하여 이전에 번역된 프로젝트의 후속 버전을 번역할 때만 나타난다.

번역 메모리는 다음과 같은 추가 기능을 갖춘 경우가 많다.

용어집 작성 및 인용
원문의 레이아웃 유지 또는 재현
번역 작업을 지원하는 기능
번역 분량 산출
맞춤법 검사
여러 번역자가 하나의 문서를 분담하는 경우의 공동 작업 지원

5. 2. 주요 단점

번역 메모리 관리자의 광범위한 사용을 방해하는 주요 문제점은 다음과 같다.

번역 메모리의 개념적 한계: "번역 메모리"는 이전 번역 문장을 "재활용"한다는 전제에 기반한다. 그러나 번역의 기본 원칙은 문장이 아닌 텍스트의 의미를 번역하는 것이다.^[1]
기존 번역 프로세스와의 부적합성: 번역 메모리 관리자는 기존 번역 또는 현지화 프로세스에 쉽게 맞지 않는다. 번역 메모리 기술을 활용하려면 번역 프로세스를 재설계해야 한다.^[1]
문서 형식 지원 제한: 번역 메모리 관리자는 현재 모든 문서 형식을 지원하지 않으며, 모든 파일 형식을 지원하는 필터가 없을 수 있다.^[1]
학습 곡선 및 사용자 정의 필요: 번역 메모리 관리자 사용에는 학습 곡선이 있으며, 최대 효율을 위해 프로그램을 사용자 정의해야 한다.^[1]
원격 작업의 어려움: 번역 프로세스가 아웃소싱되거나 원격 프리랜서 번역가가 처리하는 경우, 번역 메모리 관리자가 생성한 텍스트로 작업하기 위한 특수 도구가 필요하다.^[1]
높은 비용: 많은 번역 메모리 관리자 정식 버전은 1개당 500USD에서 2500USD에 이르러 상당한 투자가 필요하다 (더 저렴한 프로그램도 있지만, 무료 또는 셰어웨어 TM 패키지는 아직 큰 시장 점유율을 확보하지 못했다).^[1]
추가 비용 발생: 과거 번역을 번역 메모리 데이터베이스로 가져오고, 교육하고, 추가 제품을 구매하는 데 드는 비용도 상당할 수 있다.^[1]
유지 관리의 어려움: 번역 메모리 데이터베이스 유지 관리는 대부분 수동 프로세스이며, 유지 관리를 하지 않으면 TM 일치 사용 편의성과 품질이 크게 저하될 수 있다.^[1]
특정 텍스트 유형에 부적합: 번역 메모리 관리자는 내부 반복이 없거나 개정 사이에 변경되지 않은 부분이 없는 텍스트에는 적합하지 않을 수 있다. 일반적으로 기술 텍스트가 번역 메모리에 가장 적합하며, 마케팅 또는 창의적인 텍스트는 덜 적합하다.^[1]

6. 번역 메모리의 품질에 미치는 영향

번역 메모리(TM) 시스템의 사용은 번역된 텍스트의 품질에 영향을 미칠 수 있다. 주요 영향은 "오류 전파"와 관련이 있다. 특정 문장의 번역이 부정확하면, 동일하거나 유사한 원본 텍스트가 다음에 번역될 때 부정확한 번역이 재사용될 가능성이 높아져 오류가 계속될 수 있다.^[1]

전통적으로 번역된 텍스트의 품질에 대한 두 가지 주요 영향은 "문장 샐러드" 효과^[2]와 "엿보기" 효과^[3]이다. "문장 샐러드" 효과는 서로 다른 스타일을 가진 여러 번역자가 번역한 번역 메모리의 문장을 사용하여 텍스트를 번역할 때 텍스트 수준의 일관성이 부족한 것을 의미한다. "엿보기" 효과에 따르면 번역가는 번역 메모리 시스템이 텍스트 내부 참조를 포함하지 않도록 사용 스타일에 적응하여, 향후 텍스트에서 문장을 더 잘 재사용할 수 있게 되므로 응집력과 가독성에 영향을 미칠 수 있다.^[4]

번역된 텍스트에는 잠재적이고 무의식적인 영향이 있을 수 있다. 언어마다 문장 내 논리적 요소에 대한 서로 다른 순서를 사용하며, 절반이 번역된 다중 절 문장을 제시받은 번역가는 문장을 완전히 재구성할 가능성이 적다. 일관된 경험적 증거^[5]에 따르면, 번역가는 텍스트 프로세서로 작업할 때 번역 메모리 시스템으로 작업할 때보다 다중 절 문장의 구조를 수정할 가능성이 더 높다.

또한 번역가는 텍스트를 전체적으로, 각 문장이 주변 문장 및 텍스트와 어떻게 관련되는지에 집중하는 대신 문장별로 기계적으로 처리할 가능성이 있다. 연구자^[6]는 이러한 프로그램의 자동 세분화 기능과 관련된 이러한 영향을 확인했지만, 이것이 번역 품질에 반드시 부정적인 영향을 미치는 것은 아니다.

이러한 효과는 도구 자체보다는 교육과 밀접한 관련이 있다. 번역 메모리 시스템의 사용은 특히 초보자에게 번역된 텍스트의 품질에 영향을 미치지만, 경험이 풍부한 번역가는 이를 피할 수 있다.^[7] "번역 메모리/기계 번역(MT)을 사용하는 번역가는 각 문장을 진행하면서 수정하는 경향이 있으며, 마지막에 전체 텍스트에 대한 최종 수정을 할 시간이 거의 없다"는 지적^[8]은 여기에 설명된 일부 효과의 궁극적인 원인일 수 있다.

7. 번역 메모리의 역사

1970년대는 학자들이 탐색적인 논의를 시작한 번역 메모리(TM) 시스템의 초기 단계였다. 번역 메모리 시스템의 최초 아이디어는 마틴 케이(Martin Kay)의 "적절한 장소(Proper Place)" 논문으로 여겨지지만, 그 세부 사항은 완전히 제시되지 않았다. 이 논문에서 그는 저장 시스템의 기본 개념을 제시하였다. "번역가는 시스템이 저장소에서 관련이 있을 수 있는 모든 것을 표시하도록 명령을 내리는 것으로 시작할 수 있다... 진행하기 전에 그는 비슷한 자료를 포함하는 텍스트의 과거 및 미래 조각을 검토할 수 있다." 케이의 이러한 관찰은 번역가들이 온라인에서 유사하고 이미 번역된 문서를 사용할 수 있다는 피터 아선(Peter Arthern)의 제안에 영향을 받았다. 1978년 그의 논문에서 그는 오늘날 TM 시스템이라고 부르는 것을 완벽하게 시연했다. "새로운 텍스트는 워드 프로세싱 스테이션에 입력될 것이고, 입력되는 동안 시스템은 이 텍스트를 해당 번역과 함께 메모리에 저장된 이전 텍스트와 대조할 것이다 [유럽 공동체의] 모든 다른 공식 언어로... 기계 번역 자체보다 한 가지 장점은 검색된 모든 구절이 문법적으로 정확할 것이라는 것이다. 실제로 우리는 전자 '잘라내기 및 붙여넣기' 프로세스를 운영할 것이며, 나의 계산에 따르면 번역가가 현재 번역을 효과적으로 생산하는 데 사용하는 시간의 최소 15%를 절약할 것이다."

이 아이디어는 브리검 영 대학교(Brigham Young University)의 연구원이 처음 개발한 ALPS(Automated Language Processing Systems) 도구에 통합되었으며, 당시 TM 시스템의 아이디어는 일치하는 문자열을 찾는 것을 목표로 하는 "반복 처리"라는 도구와 혼합되었다. 오랜 시간이 지난 후에야 번역 메모리의 개념이 생겨났다.

TM 시스템의 진정한 탐색 단계는 1980년대였다. TM 시스템의 최초 구현 중 하나는 새들러(Sadler)와 벤델만스(Vendelmans)의 이중 언어 지식 은행(Bilingual Knowledge Bank)에서 나타났다. 이중 언어 지식 은행은 구문론적으로 및 지시적으로 구조화된 코퍼스의 쌍으로, 하나는 다른 하나의 번역이며, 번역 단위는 코퍼스 간에 교차 코딩된다. 이중 언어 지식 은행의 목표는 기계 번역 및 컴퓨터 지원 번역 분야의 응용을 위한 코퍼스 기반의 범용 지식 소스를 개발하는 것이다. 또 다른 중요한 단계는 브라이언 해리스(Brian Harris)가 그의 "바이트(Bi-text)"를 통해 이루어졌다. 그는 바이트를 "2차원 단일 텍스트"(1988)로 정의했으며, 원본 및 대상 텍스트는 새들러의 이중 언어 지식 은행과 유사한 공명을 만드는 번역가의 활동을 통해 관련된다. 해리스의 연구에서 그는 TM 시스템과 유사하지만 이 이름을 사용하지 않는 것을 제안했다. 개별 단어 또는 "전체 번역 단위"로 검색할 수 있는 번역 쌍의 데이터베이스로, 후자의 경우 검색을 통해 동일한 단위가 아닌 유사한 단위를 검색할 수 있다.

TM 기술은 여러 엔지니어와 번역가의 노력으로 1990년대 후반에 이르러서야 광범위하게 상업적으로 이용 가능하게 되었다. 주목할 만한 것은 트라도스(SDL Trados)라는 최초의 TM 도구이다. 이 도구에서 소스 파일을 열고 번역 메모리를 적용하면 텍스트 내의 모든 "100% 일치"(동일한 일치) 또는 "퍼지 일치"(유사하지만 동일하지 않은 일치)가 즉시 추출되어 대상 파일 내에 배치된다. 그런 다음 번역 메모리에서 제안된 "일치"는 새 대안으로 수락하거나 재정의할 수 있다. 번역 단위가 수동으로 업데이트되면 현재 텍스트에서 반복할 뿐만 아니라 향후 사용을 위해 번역 메모리 내에 저장된다. 이와 유사하게 "일치"가 없는 대상 파일의 모든 세그먼트는 수동으로 번역된 다음 자동으로 번역 메모리에 추가된다.

2000년대에는 온라인 번역 서비스가 TM을 통합하기 시작했다. 구글 번역과 같은 기계 번역 서비스뿐만 아니라 Gengo 및 Ackuna와 같은 사이트에서 제공하는 전문적이고 "하이브리드" 번역 서비스는 번역가와 자원 봉사자가 제공한 TM 데이터베이스를 통합하여 언어 간의 보다 효율적인 연결을 만들고 최종 사용자에게 더 빠른 번역 서비스를 제공한다.

8. 최근 동향

최근에는 번역 메모리와는 대조적인 '텍스트 메모리' 개념이 등장했다.^[5] 이는 LISA OSCAR 표준 제안의 기반이기도 하다.^[6] xml:tm 내의 텍스트 메모리는 '저작 메모리'와 '번역 메모리'로 구성된다. 저작 메모리는 저작 주기 동안의 변경 사항을 추적하는 데 사용된다. 번역 메모리는 저작 메모리의 정보를 사용하여 번역 메모리 매칭을 구현한다. 주로 XML 문서를 대상으로 하지만, xml:tm은 XLIFF^[7] 형식으로 변환될 수 있는 모든 문서에서 사용할 수 있다.

9. 관련 표준

번역 메모리와 관련된 여러 표준들은 번역 메모리 시스템 간의 호환성을 높이고 데이터 교환을 용이하게 하기 위해 제정되었다. 주요 표준은 다음과 같다.

번역 메모리 교환(TMX): 번역 공급업체 간 번역 메모리 교환을 위한 표준이다. 번역 커뮤니티에서 널리 채택되었으며, 원본 및 대상 문서를 재생성할 수 있다.^[19] TRADOS, Wordfast 등 다양한 번역 도구에서 지원한다.^[24]
용어 데이터 교환(TBX): 상세한 어휘 정보를 포함한 용어 데이터 교환을 위한 표준으로, ISO 30042로 개정 및 재발행되었다.
범용 용어 교환(Universal Terminology eXchange, UTX): 기계 번역 사용자 사전을 위해 설계되었지만, 일반 용어집에도 사용 가능한 표준이다.
세분화 규칙 교환(SRX): TMX 표준을 개선하여 번역 메모리 데이터 활용도를 높이는 표준이다.
GILT 메트릭: 세계화, 국제화, 현지화, 번역 작업의 양과 품질을 정량화하기 위한 표준으로, GMX-V, GMX-C, GMX-Q의 세 부분으로 구성된다.
오픈 렉시콘 인터체인지 포맷(OLIF): 용어 및 어휘 데이터 교환을 위한 개방형 XML 호환 표준이다.^[8]
XML 현지화 교환 파일 형식 (XLIFF): 현지화 제공업체가 이해할 수 있는 단일 교환 파일 형식을 제공하기 위한 표준이다.^[9]^[10]^[11]
TransWS (Translation Web Services): 현지화 프로젝트 관련 파일 및 메시지 제출 및 검색에 웹 서비스를 사용하기 위한 호출을 지정하는 표준이다.^[12]
xml:tm (XML-based Text Memory): 저작자 및 번역 메모리로 구성된 텍스트 메모리 개념 기반의 번역 메모리 접근 방식이다.^[13]
Gettext Portable Object 형식 (PO): 번역 메모리 형식은 아니지만, 번역 메모리 프로세스에 사용되는 이중 언어 파일이다. GNU Gettext 도구와 Translate Toolkit이 주로 사용된다.

9. 1. TMX (Translation Memory eXchange)

'''번역 메모리 교환(TMX)'''은 번역 공급업체 간의 번역 메모리 교환을 가능하게 하는 표준이다. TMX는 번역 메모리를 가져오고 내보내는 최상의 방법으로 번역 커뮤니티에 의해 채택되었다. 현재 버전은 1.4b이며, TMX 데이터에서 원본 소스 및 대상 문서를 다시 생성할 수 있다.

TMX는 워드(Word), 엑셀(Excel), 파워포인트(PowerPoint) 등 마이크로소프트 오피스 응용 프로그램, RTF, MIF, HTML, XML, SGML, Java의 속성 파일 등 다양한 파일 형식과 호환된다. 또한, TMX 규격에 준거한 번역 메모리도 사용할 수 있다.

다른 번역 메모리 도구로 작성된 TMX 규격에 준거하는 번역 메모리도 가져와 사용할 수 있으며, Microsoft Word, Excel, PowerPoint 파일 등 다양한 형식에 대응한다.

번역 메모리는 TMX 또는 Microsoft Excel 형식으로 가져오기 및 내보내기가 가능하다.

OmegaT^영어는 자유 소프트웨어 (GPL)이며, TMX 규격에 준거한 번역 메모리를 지원한다.

TRADOS는 전용 에디터를 사용하여 작업하며, TMX 규격에 준거한 번역 메모리를 임포트하여 사용할 수 있다. 또한, SDLTM이라는 독자적인 파일 형식으로 번역 메모리를 관리할 수 있다.^[19]

Wordfast는 TRADOS, Déjà Vu, Star Transit, SDLX 등에서 생성된 TMX 규격에 준하는 번역 메모리를 사용할 수 있다.

IBM의 TM/2에서 유래한 오픈 소스 엔터프라이즈급 번역 환경은 TMX 규격에 준거한 번역 메모리를 지원한다.^[24]

9. 2. TBX (TermBase eXchange)

'''용어 데이터 교환'''(TBX)는 번역 산업 표준 협회(LISA) 표준으로, ISO 30042로 개정 및 재발행되었으며, 상세한 어휘 정보를 포함한 용어 데이터의 교환을 허용한다. TBX의 프레임워크는 세 가지 ISO 표준(ISO 12620, ISO 12200, ISO 16642)에 의해 제공된다. ISO 12620은 데이터 요소 유형 또는 미리 정의된 값으로 기능하는 표준화된 이름을 가진 잘 정의된 "데이터 범주"의 목록을 제공한다. ISO 12200(MARTIF라고도 함)은 TBX의 핵심 구조에 대한 기반을 제공한다. ISO 16642(용어 마크업 프레임워크라고도 함)는 일반적으로 용어 마크업 언어에 대한 구조적 메타 모델을 포함한다.

9. 3. UTX (Universal Terminology eXchange)

'''범용 용어 교환(Universal Terminology eXchange, UTX)''' 형식은 기계 번역의 사용자 사전을 위해 특별히 설계된 표준이지만, 일반적인 사람이 읽을 수 있는 용어집에도 사용할 수 있다. UTX의 목적은 매우 단순하고 실용적인 사양을 통해 사전 공유 및 재사용을 가속화하는 것이다.

9. 4. SRX (Segmentation Rules eXchange)

세분화 규칙 교환(SRX)은 TMX 표준을 향상시켜 애플리케이션 간에 교환되는 번역 메모리 데이터를 보다 효과적으로 사용할 수 있도록 하는 것이다. 이전 번역에 사용된 세분화 규칙을 지정하는 기능은 활용도를 높일 수 있다.

9. 5. GMX (GILT Metrics)

GILT 메트릭은 세계화, 국제화, 현지화, 번역의 약자이다. GILT 메트릭 표준은 GMX-V (볼륨 메트릭), GMX-C (복잡성 메트릭), GMX-Q (품질 메트릭)의 세 부분으로 구성된다. 제안된 GILT 메트릭 표준은 주어진 GILT 작업의 작업량과 품질 요구 사항을 정량화하는 것을 목표로 한다.

9. 6. OLIF (Open Lexicon Interchange Format)

'''오픈 렉시콘 인터체인지 포맷'''(Open Lexicon Interchange Format, OLIF)은 용어 및 어휘 데이터를 교환하기 위한 개방형 XML 호환 표준이다. 원래는 독점적인 기계 번역 렉시콘 간의 어휘 데이터 교환 수단으로 의도되었지만, 용어 교환을 위한 보다 일반적인 표준으로 발전했다.^[8]

9. 7. XLIFF (XML Localization Interchange File Format)

'''XML 현지화 교환 파일 형식'''(XLIFF)은 모든 현지화 제공업체가 이해할 수 있는 단일 교환 파일 형식을 제공하기 위한 것이다. XLIFF는 번역 업계에서 XML 형식으로 데이터를 교환하는 데 선호되는 방법이다.^[9]^[10]^[11]

9. 8. TransWS (Translation Web Services)

'''TransWS'''는 현지화 프로젝트와 관련된 파일 및 메시지의 제출 및 검색에 웹 서비스를 사용하기 위해 필요한 호출을 지정한다. 웹 서비스를 사용하여 현재 현지화 프로세스의 많은 부분을 자동화하기 위한 상세한 프레임워크로 의도되었다.^[12]

9. 9. xml:tm (XML-based Text Memory)

xml:tm(XML 기반 텍스트 메모리)은 저작자 및 번역 메모리로 구성된 텍스트 메모리 개념을 기반으로 하는 번역 메모리 접근 방식이다.^[13] xml:tm은 XML-INTL에 의해 Lisa OSCAR에 기증되었다.

9. 10. PO (Gettext Portable Object)

Gettext Portable Object 형식은 번역 메모리 형식으로 간주되지는 않지만, 겟텍스트 PO 파일은 번역 메모리가 사용되는 방식과 동일하게 번역 메모리 프로세스에도 사용되는 이중 언어 파일이다. 일반적으로 PO 번역 메모리 시스템은 디렉토리 트리 구조로 된 다양한 개별 파일로 구성된다. PO 파일과 함께 작동하는 일반적인 도구로는 GNU Gettext 도구와 Translate Toolkit이 있다. 또한 PO 파일을 단순한 소스 텍스트 파일처럼 편집하는 여러 도구와 프로그램도 있다.

10. 대표적인 번역 메모리 도구

다음은 대표적인 번역 메모리 도구들이다.

도구 이름	설명
펠릭스	워드, 엑셀, 파워포인트의 애드인으로 기능한다.
Google 번역 도구 키트	구글의 서비스와 연동되며, 웹에서 사용할 수 있는 번역 메모리이다. 2019년 12월 4일에 서비스가 종료되었다.^[17]
OmegaT	자유 소프트웨어 (GPL)이며, 플랫폼에 독립적인 Java로 구현되었다.
SDL Trados	전용 에디터를 사용하여 작업하며, 버전 2011 이후에는 전용 에디터 상에서 작업할 수 있게 되었다.^[18]
TraTool	독립적인 소프트웨어로 작동하며, 번역 메모리는 탭으로 구분된 텍스트 형식(확장자 TSV)으로 저장된다.
Wordfast	마이크로소프트 워드 매크로로 작동하며, TRADOS와 유사한 조작 방법 및 문절 나누기를 제공한다.
Translate Toolkit	IBM의 TM/2에서 유래한 오픈 소스 엔터프라이즈급 번역 환경을 제공한다.^[23]

이 외에도 MemoQ, Memsource, CafeTran Espresso 등 다양한 번역 메모리 도구들이 있으며, 각각 다른 특징과 기능을 가지고 있다.

참조

_[1] 웹사이트 Archived copy http://www3.imperial[...] Elina Lagoudaki 2006
_[2] 논문 The Proper Place of Men and Machines in Language Translation 1997-03
_[3] 논문 Machine Translation and Computerized Terminology Systems: A Translator's Perspective http://www.mt-archiv[...] 1978
_[4] 뉴스 Google's AI translation tool seems to have invented its own secret internal language https://techcrunch.c[...] TechCrunch 2016-11-22
_[5] 문서 Translating XML Documents with xml:tm http://www.xml.com/p[...]
_[6] 문서 xml:tm http://www.xml.com/p[...]
_[7] 문서 XLIFF http://www.oasis-ope[...]
_[8] 문서 Open Lexicon Interchange Format http://www.olif.net/
_[9] 웹사이트 DITA Translation SC https://www.oasis-op[...] 2021-01-29
_[10] 간행물 XML for translation technology https://www.taylorfr[...] Routledge 2021-01-29
_[11] 문서 XML Localisation Interchange File Format http://www.oasis-ope[...]
_[12] 문서 Translation Web Services http://www.oasis-ope[...]
_[13] 웹사이트 OAXAL—What is it and why should I care http://www.infomanag[...] 2008-08
_[14] 문서 WorldLingo White Paper - Seamless translationの日本語訳 http://www.worldling[...]
_[15] 문서 '基礎英語3 2016/12/22 #基礎英語3 | 藤井塾' https://fujiijuku.ne[...]
_[16] 문서 Google翻訳者ツールキットを使ってみる「すべてのユーザーと共有しないように」 https://docs.google.[...] Google
_[17] 웹사이트 Google Translator Toolkit Has Shut Down https://support.goog[...] Google 2020-12-15
_[18] 웹사이트 SDL Trados Studio 2019の新機能 https://www.sdl.com/[...] 2019-03-05
_[19] 웹사이트 SDL翻訳メモリ（SDLTM）を使用すべき10の理由 https://www.sdl.com/[...] 2019-03-05
_[20] 문서 みんなの翻訳 - 初めての方へ http://trans.trans-a[...]
_[21] 문서 翻訳支援エディタ「QRedit」体験版 http://trans.trans-a[...]
_[22] 문서 "「みんなの翻訳」マニュアル (PDF)" http://trans.trans-a[...]
_[23] 문서 opentm2 http://www.opentm2.o[...]
_[24] 문서 Frequently Asked Questions http://www.opentm2.o[...]
_[25] 문서 Committee Meeting Minutes http://www.opentm2.o[...]
_[26] 문서 GlobalSight - テクノロジ - Welocalize 翻訳 http://www.welocaliz[...]
_[27] 문서 About GlobalSight http://www.globalsig[...]
_[28] 문서 System requirements http://www.globalsig[...]
_[29] 문서 About GlobalSight http://www.globalsig[...]
_[30] 웹인용 Archived copy http://www3.imperial[...] 2007-03-25

본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com